以对象为中心的表示是通过提供柔性抽象可以在可以建立的灵活性抽象来实现更系统的推广的有希望的途径。最近的简单2D和3D数据集的工作表明,具有对象的归纳偏差的模型可以学习段,并代表单独的数据的统计结构中的有意义对象,而无需任何监督。然而,尽管使用越来越复杂的感应偏差(例如,用于场景的尺寸或3D几何形状),但这种完全无监督的方法仍然无法扩展到不同的现实数据。在本文中,我们采取了弱监督的方法,并专注于如何使用光流的形式的视频数据的时间动态,2)调节在简单的对象位置上的模型可以用于启用分段和跟踪对象在明显更现实的合成数据中。我们介绍了一个顺序扩展,以便引入我们训练的推出,我们训练用于预测现实看的合成场景的光流,并显示调节该模型的初始状态在一小组提示,例如第一帧中的物体的质量中心,是足以显着改善实例分割。这些福利超出了新型对象,新颖背景和更长的视频序列的培训分配。我们还发现,在推论期间可以使用这种初始状态调节作为对特定物体或物体部分的型号查询模型,这可能会为一系列弱监管方法铺平,并允许更有效的互动训练有素的型号。
translated by 谷歌翻译
The number of international benchmarking competitions is steadily increasing in various fields of machine learning (ML) research and practice. So far, however, little is known about the common practice as well as bottlenecks faced by the community in tackling the research questions posed. To shed light on the status quo of algorithm development in the specific field of biomedical imaging analysis, we designed an international survey that was issued to all participants of challenges conducted in conjunction with the IEEE ISBI 2021 and MICCAI 2021 conferences (80 competitions in total). The survey covered participants' expertise and working environments, their chosen strategies, as well as algorithm characteristics. A median of 72% challenge participants took part in the survey. According to our results, knowledge exchange was the primary incentive (70%) for participation, while the reception of prize money played only a minor role (16%). While a median of 80 working hours was spent on method development, a large portion of participants stated that they did not have enough time for method development (32%). 25% perceived the infrastructure to be a bottleneck. Overall, 94% of all solutions were deep learning-based. Of these, 84% were based on standard architectures. 43% of the respondents reported that the data samples (e.g., images) were too large to be processed at once. This was most commonly addressed by patch-based training (69%), downsampling (37%), and solving 3D analysis tasks as a series of 2D tasks. K-fold cross-validation on the training set was performed by only 37% of the participants and only 50% of the participants performed ensembling based on multiple identical models (61%) or heterogeneous models (39%). 48% of the respondents applied postprocessing steps.
translated by 谷歌翻译
虽然对多语言视觉语言预测的模型实现了一些好处,但是当将多句预训练的视力语言模型应用于非英语数据时,各种任务和语言的最新基准测试表明,跨语性概括不佳,并且在有监督之间存在很大的差距( )英语表现和(零射)跨语性转移。在这项工作中,我们探讨了这些模型在零拍的跨语性视觉响应(VQA)任务上的糟糕性能,其中模型在英语视觉问题数据上进行了微调,并对7种类型上多样的语言进行了评估。我们通过三种策略改善了跨语性转移:(1)我们引入了语言的先验目标,以增加基于相似性损失以指导模型在培训期间的跨渗透损失,(2)我们学习了一个特定于任务的子网络,改善跨语性概括并减少不修改模型的方差,(3)我们使用合成代码混合来扩大培训示例,以促进源和目标语言之间的嵌入。我们使用预审计的多语言多模式变压器UC2和M3P进行的XGQA实验证明了针对7种语言提出的微调策略的一致有效性,以稀疏模型优于现有的转移方法。复制我们发现的代码和数据已公开可用。
translated by 谷歌翻译
我们重新访问重尾损坏的最小二乘线性回归,假设最多损坏了$ n $ n $ n $ sized的标签 - 功能样本,最多是$ \ epsilon n $ nutialary Outliers。我们希望估计给定标签 - 功能对$(y,x)$满足$ y = \ y = \ langle x,b^*\ rangle+xi $的标签 - 功能对$(y,x)$的样本给定$ p $ -dimensional参数$ b^*$ - 尾$(x,\ xi)$。我们只假设$ x $ is $ l^4-l^2 $超债券与常数$ l> 0 $,并具有协方差矩阵$ \ sigma $,最低eigenvalue $ 1/\ mu^2> 0 $和有限条件号$ \ \ \ \ \ \ \ \ kappa> 0 $。只要$ \ xi x $具有有限的协方差矩阵$ \ xi $,噪声$ \ xi $可以任意取决于$ x $,而非对称性。我们提出了一个基于功率方法的近乎最佳的计算估计器,假设对$(\ sigma,\ xi)$也不了解$ \ xi $的运算符规范。如果概率至少$ 1- \ delta $,我们提出的估计器达到了统计率$ \ mu^2 \ vert \ xi \ xi \ vert^{1/2}(\ frac {p} {n} {n}+\ frac {\ log(\ log(\ log( 1/\ delta)}} {n}+\ epsilon)^{1/2} $ and beckdown-point $ \ epsilon \ epsilon \ sillesim \ frac {1} {l^4 \ kappa^2} $ \ ell_2 $ - norm,假设最小最小样本大小$ l^4 \ kappa^2(p \ log p + p + \ log(1/\ delta))\ sillsim n $,最多为log fix因数。据我们所知,这是同时满足所有提到的所有属性的第一个计算障碍算法。我们的估计器基于两阶段的乘量重量更新算法。第一阶段估计了(未知)预先条件的内部产品$ \ langle \ sigma(\ cdot),\ cdot \ rangle $。第二阶段估计下降方向$ \ sigma \ hat v $相对于(已知的)内部产品$ \ langle \ cdot,\ cdot \ rangle $,而无需了解或估计$ \ sigma $。
translated by 谷歌翻译
可以使用X射线自由电子激光器的强脉冲和短脉冲直接通过单次相干衍射成像直接观察到自由飞行中孤立的纳米样品的结构和动力学。广角散射图像甚至编码样品的三维形态信息,但是该信息的检索仍然是一个挑战。到目前为止,只有通过与高度约束模型拟合,需要对单镜头实现有效的三维形态重建,这需要有关可能的几何形状的先验知识。在这里,我们提出了一种更通用的成像方法。依赖于允许凸多面体描述的任何样品形态的模型,我们从单个银纳米颗粒中重建广角衍射模式。除了具有高对称性的已知结构动机外,我们还检索了以前无法访问的不完美形状和聚集物。我们的结果为单个纳米颗粒的真实3D结构确定以及最终的超快纳米级动力学的3D电影开辟了新的途径。
translated by 谷歌翻译
在一条繁忙的城市街道上,如果这与他们的路线相关,被分心的行人可以挑出一个标志。户外视觉和语言导航(VLN)中的人工代理也面临着在环境特征和输入中的位置的检测监督信号。为了提高基于变压器的体系结构中相关特征的突出性,而无需付出昂贵的预处理和预处理,我们从优先地图中获得了灵感,这是神经心理学研究中描述的一种机制。我们使用具有高水平表示路线和与环境相关的城市特征的参考的低样本数据集对辅助任务实施新颖的优先级图模块。轨迹计划的层次结构过程 - 随后在视觉输入上进行了参数化的视觉增强过滤,并预测相应的文本跨度 - 解决了跨模式比对和特征级定位的核心挑战。优先地图模块集成到一个功能固定框架中,该框架将独立变压器的任务完成率翻了一番,并在VLN的达阵基准上获得最先进的性能。代码和数据在附录C中引用。
translated by 谷歌翻译
确定公民的多样化和经常竞争的价值,并解决随之而来的公共价值冲突,对于包容性和综合城市发展至关重要。学者们强调,具有关系的,具有价值的城市空间引起了许多不同的冲突,它们在空间和时间上都不同。尽管理论上已经构思了公共价值冲突的概念,但很少有实证研究确定这种价值观及其在城市空间中的冲突。本文以公共价值理论为基础,并使用案例研究的混合方法方法,提出了一种新的方法来研究城市空间中的公共价值冲突。使用汉堡,德国公共参与地理信息系统的4,528个公民贡献的非结构化参与数据,使用自然语言处理和空间聚类技术来识别潜在价值冲突的领域。四个专家研讨会评估和解释这些定量发现。整合定量和定性结果,19个普通公众价值观和9个原型冲突。根据这些结果,本文提出了一种新的公共价值领域概念工具,该工具扩展了公共价值冲突的理论概念,并有助于进一步说明城市空间的价值。
translated by 谷歌翻译
端到端(E2E)语音到文本翻译(ST)通常取决于通过语音识别或文本翻译任务使用源成绩单预处理其编码器和/或解码器,否则翻译性能会大大下降。但是,笔录并不总是可用的,在文献中很少研究这种预处理的E2E ST。在本文中,我们重新审视了这个问题,并探讨了仅在语音翻译对培训的E2E ST质量的程度。我们重新审查了几种证明对ST的有益的技术,并提供了一系列最佳实践,这些实践使基于变压器的E2E ST系统偏向于从头开始训练。此外,我们提出了参数化的距离惩罚,以促进语音自我注意模型中的位置建模。在涵盖23种语言的四个基准测试中,我们的实验表明,在不使用任何成绩单或预处理的情况下,提议的系统达到甚至优于先前采用预处理的研究,尽管差距仍然存在(极为)低资源的设置。最后,我们讨论了神经声学特征建模,其中神经模型旨在直接从原始语音信号中提取声学特征,以简化电感偏见并为模型描述语音增添自由度。我们第一次证明了它的可行性,并在ST任务上表现出令人鼓舞的结果。
translated by 谷歌翻译
神经指标与机器翻译系统评估中的人类判断达到了令人印象深刻的相关性,但是在我们可以安全地针对此类指标进行优化之前,我们应该意识到(并且理想地消除)偏向获得高分的不良翻译的偏见。我们的实验表明,基于样本的最小贝叶斯风险解码可用于探索和量化此类弱点。在将此策略应用于彗星进行ende和de-en时,我们发现彗星模型不足以差异和命名实体差异。我们进一步表明,通过简单地培训其他合成数据并发布我们的代码和数据以促进进一步的实验,这些偏见很难完全消除。
translated by 谷歌翻译
标准自动指标,例如BLEU对于文档级MT评估不可靠。他们既不能区分翻译质量的文档级改进与句子级别的改进,也不能确定引起上下文反应翻译的话语现象。本文介绍了一种新颖的自动公制金发,以扩大自动MT评估的范围,从句子到文档级别。金发女郎通过对与话语相关的跨度进行分类并计算基于相似性的F1分类跨度来考虑话语一致性。我们对新建的数据集BWB进行了广泛的比较。实验结果表明,金发女郎在文档级别具有更好的选择性和可解释性,并且对文档级别的细微差别更为敏感。在一项大规模的人类研究中,与以前的指标相比,金发碧眼的皮尔逊与人类判断的相关性也明显更高。
translated by 谷歌翻译